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基于 最 近邻 距离 权重 的 ML-KNN 算法 


陆 凯 , 徐 华 - 
(江南 大 学 物 联网 工程 学 院 , 江苏 无 锡 214122) 


摘 要 : 在 大 数据 环境 下 ， 开 近邻 多 标签 算法 (ML-KNN) 高 时 间 复 杂 度 的 问题 显 的 尤为 突出 ; 此 外 ，ML-KNN 也 
没有 考虑 k 个 近邻 对 最 终 分 类 结果 的 影响 。 针 对 上 述 问题 进行 研究 ， 首 先 将 训练 集 进行 聚 类 ， 再 为 测试 集 找到 一 个 
距离 其 最 近 的 训练 数据 纵 作 为 新 的 训练 数据 集 ; 然后 计算 最 近邻 样本 的 距离 权重 ， 并 用 该 权重 描述 最 近邻 和 其 他 近 
邻 对 预测 结果 的 影响 ; 最 后 使 用 新 的 目标 函数 为 待 测 样本 分 类 。 通 过 在 图 片 、Web 页 面 文本 数据 等 数据 集 上 的 实验 
表明 ， 所 提 算 法 得 到 了 更 好 的 分 类 结果 ， 并 且 大 大 降低 了 时 间 复 杂 度 。 
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ML-KNN algorithm based on nearest neighbor distance weight 


Lu Kai, Xu Huar- 
(School of Internet of Things Engineering, Jianenan University, Wuxi Jiangsu 214122, China) 


Abstract: In order to efficiently apply multi-label K-nearest neighbor(ML-KNN) in big dataset, this paper first conducted 
clustering algorithm to separate the training dataset into several parts, from which found a nearest cluster as new training set 
for test dataset; and then calculated nearest neighbor distance weight, by which the effect of k neighbors was described. 
Finally, an unseen sample could be classified by this new method. Numberical simulation results in different datesets show 
that a better classification result is obtained, and the time complexity of the algorithm is also improved. 
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0 引言 了 不 错 的 成 果 。 文 献 [8] 通 过 在 ML-KNN 算法 中 引入 辅助 标 

本 签 的 方式 提出 了 一 种 分 层 的 ML-KNN 方法 ,引入 辅助 标签 的 
互联 网 的 发 展 直接 造成 数据 规模 和 数据 信息 量 的 飞速 增 目的 就 是 弥补 了 ML-KNN 算法 没有 考虑 标签 之 间 具 有 相关 
长 ， 这 就 导致 了 传统 的 单 标签 分 类 已 经 无 法 适应 当下 的 分 类 ”性 的 缺陷 ， 从 而 改善 了 算法 的 最 终结 果 ; 在 文献 [9] 中 ， 首 先 
需求 ， 因 此 多 标签 分 类 逐渐 成 为 数据 分 类 的 重点 话题 。 在 传 ”使 用 原型 选择 算法 (PS) 来 减少 训练 数据 的 数量 ， 并 且 在 这 
统 的 单 标签 分 类 趾 中 ,每 一 个 训练 样本 都 只 对 应 着 一 个 标签 1， 个 删 减 过 的 数据 集 上 ， 根 据 标 签 之 间 的 关联 程度 来 得 到 一 个 
其 中 /来 自 于 一 个 有 限 的 、 互 斥 的 标签 集合 上 。 假 设 ” 标签 的 排序 ， 通过 这 种 方法 可 以 将 很 多 不 相关 的 原型 丢弃 ; 
D={m5 人 ,62,b),…(m4s4)} ,其 中 避 表示 输入 的 数据 ,1 表示 m ”文献 [10] 则 是 先 利用 线性 判别 式 分 析 (LDA〉 提 取出 数据 的 
从 属 的 单 标签 。 如 果 标 签 的 数量 为 2?， 则 称 为 二 分 类 ， 而 如 特征， 再 降低 整个 数据 矩阵 的 维度 ， 从 而 训练 得 到 一 个 分 类 
果 标 签 数量 大 于 2, 则 称 为 多 标签 分 类 。 多 标签 (multi-label) 器 和 标签 之 间 的 相关 性 , 最 后 可 获得 到 分 类 结果 ; 在 文献 [11] 


分 类 中 和 多 类 别 (Cmulti-class ) 分 类 中 是 完全 不 同 的 两 个 概念 。 中， 首先 计算 出 标签 集合 中 每 对 标签 间 的 条 件 概率 ， 然 后 对 
多 类 别 分 类 是 在 两 个 以 上 的 类 中 预测 出 属于 样本 的 一 个 类 ， 于 即将 被 预测 的 标签 ， 将 其 与 已 经 预测 的 标签 间 的 条 件 概率 
所 以 其 本 质 还 是 单 标签 分 类 。 进行 排序 ， 求 出 最 大 值 ， 最 后 将 最 大 值 与 对 应 标签 值 相 乘 


一 般 来 说 ， 多 标签 分 类 方法 主要 可 以 分 为 问题 转换 法 、 时 结合 最 大 化 后 验 概率 来 构造 多 标签 分 类 模型 。 从 以 上 的 几 
算法 适应 法 和 集成 方法 三 类 。 问题 转换 法 是 将 一 个 多 标签 ”种 研究 情况 来 看 ， 现 在 大 部 分 研究 都 集中 于 多 标签 的 标签 相 
分 类 问题 转换 为 一 个 或 者 多 个 单 标签 分 类 问题 ， 其 中 应 用 最 。 关 性 上 ， 如 文献 [12] 也 是 一 个 利用 标签 相关 性 来 提升 
为 广泛 方法 的 则 是 将 每 一 个 标签 的 预测 都 看 做 是 一 个 独立 的 ” ML-KNN 算法 的 研究 方式 。 标签 相关 性 确实 是 提升 了 算法 的 
二 分 类 任务 ， 即 : 对 于 每 一 个 不 同 的 标签 4eL 都 给 出 一 个 二 ”运行 结果 ， 但 是 当 数据 量 很 大 时 ， 也 是 存在 标签 量 很 大 的 情 
分 类 器 及 : X 一 {f4.4}; 然后 将 原始 数据 集 转换 为 | 个 数据 。 况 ， 这 必然 会 造成 更 大 的 时 间 消 耗 。 另 外 ， 说 到 大 数据 自然 
集 D;， 其 中 4 表示 原始 数据 包含 该 标签 ， 而 4 则 表示 原始 。” 会 想到 Hadoop、Spark 等 分 布 式 技术 ,文献 [13] 就 是 结合 Spark 
数据 不 包含 该 标签 , 这 种 方法 被 称 为 二 分 关联 (BR ) 算 法 [71。 的 优越 性 和 ML-KNN 算法 的 特性 提出 了 基于 Spark 框架 下 的 
算法 适应 法 是 将 一 些 传 统 的 分 类 器 扩展 为 一 个 可 以 直接 处 理 多 标签 最 近邻 算法 。 而 在 实际 的 生产 生活 中 ，Spark 需要 的 
多 标签 分 类 问题 的 多 标签 分 类 器 ， 多 标签 K 近邻 算法 分 布 式 环境 的 成 本 也 是 不 可 忽视 的 。 在 本 文 所 提 的 算法 中 ， 
(ML-KNN) 就 是 该 方法 比较 典型 例子 。 集 成 方法 则 是 将 多 ”利用 聚 类 算法 的 同时 引入 最 近邻 距离 权重 就 能 达到 降低 算法 
个 一 种 或 多 种 多 标签 基 分 类 器 向 融合 以 达到 更 好 的 分 类 效果 。 时 间 复 杂 度 和 提升 算法 性 能 的 双重 目的 。 

近年 来 涌现 出 不 少 有 关 ML-KNN 算法 的 研究 , 并 都 取得 
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录用 定稿 陆 ” 凯 ， 等 : 基于 
1 ”相关 介绍 
1.1 多 标签 分 类 


多 标签 分 类 问题 可 以 用 数学 语言 描述 为 : 

给 定 一 个 d 维 样本 空间 m ,有 限 的 标签 集合 ={1,6,… 
那 么 训 练 集 则 可 以 表 示 为 
D={0m5, 卫 ),(1w; 避 (ms)} (me Ri,L cL)， 需要 计算 出 一 个 多 
标签 分 类 器 h:DxL 一 R。 
1.2 ML-KNN 算法 简 述 

ML-KNNIU4 是 基于 传统 的 KNN 算法 和 最 大 后 验 概率 法 
则 的 懒惰 型 多 标签 学 习 算 法 ， 它 的 主要 思想 是 一 个 样本 的 标 
签 集合 可 以 由 该 样本 的 近邻 来 决定 。 给 定 一 个 待 测 样本 x， 
段 设 它 的 标签 集合 为 L(x) ,ML-KNN 算法 首先 在 训练 数据 集 
中 找 出 x* 的 个 近邻， 再 统计 这 些 近 邻 中 属于 每 一 个 标签 的 
数量 ， 记 为 / 。 然 后 根据 最 大 后 验 概率 准则 来 确定 测试 样本 
且 每 一 个 el 的 后 验 概率 计算 如 下 : 


PU e L(X) | EE’)= P(, e L(x)P(E! |1, e L(X)) (1) 


最 后 ， 对 于 每 一 个 1ez 是 否 在 x 的 标签 集合 中 ， 
ML-KNN 算法 使 用 如 下 规则 : 
| Pl e L(x)|E’)>0.5 
yx = - 
0,PU e L(x)| E’)<0.5 


2) 


其 中 : 表示 x 的 k 个 近邻 中 有 j 个 样本 属于 标签 ;的 事件 ; 


如 果 yy.0)=1 则 表示 在 x 的 真实 标签 集合 中 , 如果 yy.0)=0 则 
表示 1 不 在 x 的 真实 标签 集合 中 。 
2 ”改进 算法 

对 于 数据 集中 的 每 一 个 样本 ， 它 的 k 个 近邻 的 标签 集合 
理论 上 应 该 跟 它 自身 的 标签 集合 有 一 定 程度 上 的 相似 ， 这 种 
相似 度 会 随 着 近邻 到 样本 距离 的 改变 而 改变 ， 并 且 距 离 大 ， 
相似 度 越 小 .而 ML-KNN 算法 的 计算 过 程 中 并 没有 将 这 种 关 
系 考 虑 进去 ， 针 对 这 一 缺陷 ， 本 文 同时 考虑 了 待 测 样本 的 k 


+ i 


个 近邻 和 最 近邻 的 影响 ， 并 利用 权重 来 衡量 这 种 影响 。 因 此 
根据 式 (1) 可 得 到 一 个 新 的 分 类 函数 : 
Pll, e LO) | EY)=w*NN.(L)+ 
(1 —w)* PU, eL(x)P(E!, | eL(x)) G3) 
其 中 : w 表示 由 x 的 最 近邻 到 x 的 距离 所 转换 而 来 的 权重 
也 是 x 的 最 近邻 在 本 文 改进 算法 中 的 权重 ; 1-w 则 表示 x 的 k 
个 近邻 的 权重 ;NN,(1) 表示 x 的 最 近邻 样本 是 否 售 有 1 标签 ， 


取 值 只 能 是 0 或 者 1。 

由 式 (3) 可 知 ， 本 文 算法 的 关键 是 如 何 确定 权重 w， 将 距 
离 转 换 为 权重 主要 有 反 函 数 、 减 函数 、 高 斯 函数 三 种 方法 。 

对 于 一 个 距离 4 ， 反 函数 最 为 简单 ， 将 距离 加 上 一 个 常量 之 


后 取 倒数 ， 即 w= 元， 加 入 常量 “的 目的 是 为 了 避免 当 距离 
接近 0 时 而 导致 反 函 数 为 无 穷 大， 因此 反 函 数 的 缺点 也 比较 
明显 ， 它 会 赋予 近邻 项 很 大 的 权重 ， 而 随 着 4 的 增 大 w 则 会 
以 一 个 极 快 的 速度 递减 ， 减 函数 跟 反 函数 类 似 ， 也 是 引入 了 
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距离 的 增加 而 减少 ， 与 减 函 数 不 同 的 是 这 里 的 权重 始终 不 会 
跌 至 0, 所 以 本 文 将 采用 高 斯 函数 的 方法 将 距离 转换 为 权重 。 
本 文 改进 算法 的 详细 步骤 如 下 : 

算法 1: 改进 ML-KNN 算法 的 详细 步 又 

输入 : 训练 数据 ， 测 试 数据 。 

输出 : 分 类 结果 。 


1 利用 k-means 聚 类 算法 将 训练 数据 分 为 (个 聚 类 中 心 ， 
记 为 R,BR,.…,R,; 

2 ”利用 k-means 聚 类 算法 将 测试 数据 分 为 t 个 聚 类 中 心 ， 
记 为 7,3,…,T，; 


3 当 ie{l2..,1} 时 : 

4 计算 7 到 Rj 的 欧式 距离 , 记 为 D0,R) ,j=1,2,..I; 

5 根据 第 4 步 获取 距离 7 最近 的 Rj， 

Rj; = min{D(T,R))} ,j=1,2,...1; 

6 ”将 对 应 的 簇 作为 新 的 测试 数据 集 ， 记 为 NewY ; 

7 ”将 第 5 步 得 到 的 8; 对 应 的 簇 作为 新 的 训练 数据 ， 
记 为 NewX ; 

8 ”对 于 每 一 个 %eNewX ， 计 算 每 一 个 /el 的 先 验 概 
率 ; 


Pl EL)=(G+ (CD)1G*2+7 


Pl, ¢ Lx) =1- Pl, e L(x,)) 
9 获取 尺 的 k 个 近邻 N,,、 最 近邻 NN 以 及 最 近邻 距 
离 二 的 距离 d ， 并 使 用 式 (4) 将 转换 为 w 
10 ”计算 ieLl 的 后 验 概率 : 


今 pe{0,1,...,k} 


P(E |l eL(%)=(s+dpD/ Gs*IN, |+D+ > c[9]) 


P(E |l gLG6)=(s+c[pD)/ (Gs*IN, |+ D+ ,cIq) 


11 利用 式 (3) 计 算 每 一 个 ze NewY 省 
得 到 最 终 预测 结果 

根据 算法 1， 本 文 先是 使 用 K-means 分 别 将 训练 数据 和 
测试 数据 聚 类 501， 再 为 每 一 个 测试 数据 艇 选择 一 个 距离 它 最 
近 的 训练 数据 簇 ， 这 样 一 方面 减少 了 数据 的 规模 ， 从 而 减少 
了 ML-KNN 算法 的 计算 量 ,最 后 达到 降低 算法 时 间 复 杂 度 的 
目的 ， 男 一 方面 距离 测试 数据 最 近 的 训练 簇 中 的 数据 相 较 于 
其 他 训练 数据 和 测试 数据 具有 一 定 程度 上 相似 度 ， 从 而 也 提 
高 了 多 标签 算法 的 各 种 评价 指标 。 然 后 再 使 用 本 文 改进 
ML-KNN 算法 对 数据 分 类 。 


3 ”实验 结果 与 分 析 


为 了 方便 比较 算法 的 性 能 ， 将 本 文 提出 的 改进 算法 称 为 
DML-KNN， 文 献 [16] 中 提出 的 改进 算法 称 为 IML-KNN， 
分 别 在 MATLAB 上 实现 。MATLAB 是 一 个 功能 强大 且 使 用 
的 算法 仿真 工具 。 
3.1 评价 指标 

a)Hamming loss。 计 算 一 个 样本 标签 对 被 错误 分 类 的 次 
数 ， 比 如 一 个 本 该 属于 样本 的 标签 没有 被 预测 到 ， 或 者 一 个 


/的 后 验 概率 ， 


一 个 常量 c， 若 dx<c ， 则 w=c-d ， 否 则 w=0， 虽 然 该 函数 
克服 了 近邻 分 配 权重 过 大 的 问题 ， 但 是 w 一定 会 慢 慢 递减 到 
高 斯 函数 则 是 利用 式 (4) 将 距离 转换 成 权重 : 


1 


WwW=a* es (4) 


其 中 : a 和 c 是 常数 ，4d 表示 的 距离 都 是 欧 氏 距离 。 高 斯 函 
数 克 服 了 近邻 项 分 配 权重 过 大 的 潜在 问题 ， 并 且 权 重 会 随 着 


I 


不 属于 样本 的 标签 被 预测 到 了 。 
hloss(h) = 2 [A(x)AY| (5) 
其 中 : 2 是 标签 数量 ;hh(%) 表示 分 类 结果 ; h(x%)AY 表示 样本 
真实 标签 集合 与 分 类 结果 的 对 称 差 。 

b)Coverage。 评 估 为 了 涵盖 所 有 可 能 的 样本 标签 需要 了 
均 给 出 的 标签 列表 。 


I 


录用 定稿 陆 凯 ， 等 : 基于 最 近 
cov(f)=— Sm rank (x,y)—1 (6) 
c)One-error。 评 估 排 在 前 面 的 标签 不 在 样本 真实 标签 中 
的 次 数 。 
] 地 
one—error(f)= jo) (7) 
若 排 在 首位 的 标签 在 样本 真实 标签 中 , 则 Hw)=1, 否则 
H(x)=0。 
d)Ranking loss。 评 估 被 反 向 排序 的 标签 对 的 平均 分 。 
rloss(f)= 二 i (8) 
其 中 : 是 7 在 总 标签 集合 上 的 补 集 。 


e)Average precision。 该 指标 的 含义 与 One-error 相反 , 它 
评估 的 是 排 在 前 面 的 标签 在 样本 真实 标签 中 的 次 数 。 
ye ranky (Xi,y) < rank, (x,y),y ey¥)| 
i 


9 ranky (Xi, y) (9) 
avgp(f) 2 区 


以 上 五 个 评价 中 ,前 四 个 越 小 越 好 ,最 后 一 个 越 大 越 好 。 

3.2 数据 集 

表 1 中 记录 的 是 选取 于 keel 的 四 个 数据 集 的 详细 信息 ， 

它们 分 别 为 电子 邮件 信息 数据 集 enron、 图 片 数据 集 scene、 

酵母 细胞 信息 数据 集 Yeast 和 包含 Web 页 面 文本 数据 的 数据 

集 delicious。 其 中 标签 基数 表示 一 个 样本 平均 具有 几 个 标签 ， 
标签 密度 是 由 标签 基数 除 以 标签 总 数 。 
表 1 实验 数据 信息 
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表 3 三 种 算法 在 数据 集 scene 上 的 实验 结果 


Table 3 Results ofthree algorithms on Scene 


a=5 a=6 a=8 
c=1/3 c=1/2 c=1/5 
指标 ML-KNN IML-KNN DML-KNN 

hloss 0.0906 0.083681 0.0697 0.0723 0.0696 
rloss 0.0723 0.069687 0.0667 0.0692 0.0657 
one-error 0.2291 0.22292 0.1861 0.1973 0.1815 
coverage 0.4542 0.43958 0.40688 0.4294 0.4012 
avgprec 0.867 0.87111 0.88854 0.8819 0.891 
Time(s) 14.53 14.3504 6.1741 5.9862 6.065 


表 4 三 种 算法 在 数据 集 Yeast 上 的 实验 结果 
Table 4 Results of three algorithms on Yeast 


a=5 a=7 a=10 
c=1/2 c=1/4 c=1/6 
指标 ML-KNN IML-KNN DML-KNN 

hloss 0.20119 0.20179 0.24084 0.2022 0.2012 
rloss 0.17932 0.17843 0.19358 0.1857 0.1755 
one-error 0.24167 0.2333 0.26088 0.2419 0.21385 
coverage 6.4333 6.425 6.577 6.5398 6.4809 
avgprec 0.75232 0.75351 0.73327 0.7464 0.76022 
Time(s) 5.435 5.4848 4.083 4.1248 4.0908 


表 5 三 种 算法 在 数据 集 delicious 上 的 实验 结果 


Table 5 Results of three algorithms on delicious 


a=5 a=8 a=10 
c=1/2 c=1/3 c=1/5 


Table 1 Experimental data information 
名 称 enron scene Yeast delicious 
样本 数 1702 2407 2417 16105 
标签 数 53 6 14 983 
标签 基数 3.3784 1.074 4.237 19.02 
标签 密度 0.064 0.179 0.303 0.019 
训练 数 1532 1927 2177 14495 
测试 数 170 480 240 1600 
3.3 实验 结果 及 分 析 
基于 3.2 节 中 的 四 个 数据 集 和 3.1 节 中 的 五 个 评价 指标 ， 


分 别 进行 本 文 算法 的 性 能 评估 。 由 算法 1 可 知 ， 本 文 算法 具 


有 以 下 几 个 关键 参数 ， 最 近邻 数 k、 高 斯 函数 中 的 两 个 可 调 
参数 4,C 、 训 练 数据 聚 类 驴 数 r、 测 试 数据 聚 类 簇 数 t。 对 于 
ML-KNN 算法 ， 最 近邻 数 k 应 当 避 免 过 小 或 者 过 大 ， 因 为 过 
小 时 ， 近 邻 中 包含 的 信息 也 会 越 少 ， 而 过 大 时 ， 虽 然 近邻 中 
包含 的 信息 量 大 了 ,但 是 这 会 很 大 程度 上 增加 算法 的 计算 量 。 
结果 多 次 实验 ,本 文 将 K 的 值 定 为 20。 表 2~5 分 别 是 当 4,C 
不 同时 ， 三 种 算法 在 四 个 数据 集 上 的 实验 结果 。 

表 2 三 种 算法 在 数据 集 enron 上 的 实验 结果 


Table 2 Results of three algorithms on enron 


a=5 a=7 a=10 
c=1/2 c=1/3 c=1/2 

指标 ML-KNN IML-KNN DML-KNN 
hloss 0.0507 0.0502 0.0453 0.0453 0.0461 
rloss 0.1002 0.0896 0.0616 0.0595 0.0581 
one-error 0.3 0.288 0.1534 0.1503 0.1534 
coverage 14.365 13.306 10.057 9.8392 9.8032 
avgprec 0.638 0.647 0.7421 0.7439 0.7514 
Time(s) 20.781 20.53 18.976 18.895 19.153 


指标 MLKNN IML-KNN DML-KNN 
hloss 0.01851 0.018468 0.0143 0.016 0.0133 
rloss 0.12416 0.11953 0.1063 0.115 0.0887 
one-error ”0.39006 0.38199 0.275 0.259 0.2164 
coverage 578.954 556.0199 378.1 472.45 346.48 
avgprec 0.32995 0.34044 0.4982 0.4195 0.5007 
Time(s) 899.5247 916.6451 343.14 462.93 343.81 
由 上 面 的 四 个 表格 可 知 ， 在 数据 集 enron 上 ， 当 
a=10,c=1/2 时 本 文 算法 效果 最 好 ;在 数据 集 scene 上 ， 当 
a=8,c=1/5 时 本 文 算法 效果 最 好 ; 在 数据 集 Yeast 上 ， 当 
a=10,c=1/6 时 本 文 算法 效果 最 好 ;在 数据 集 delicious 上 ， 当 
a=10,c=1/5 时 本 文 算法 效果 最 好 ;， 同 时 也 不 难看 出 ， 本 文 算 


法 在 时 间 复 杂 度 上 也 具有 不 小 的 优势 ， 尤 其 在 数据 集 
delicious 上 ， 当 数据 量 大 幅度 增加 时 ， 本 文 算 法 在 五 大 性 能 
指标 和 时 间 复 杂 度 上 都 有 大 幅度 的 改进 。 进 一 步 地 ， 由 算法 
1 可 知 ， 不 同 的 聚 类 簇 数 对 本 文 算法 也 有 至 关 重 要 的 影响 ， 
姑 为 它 直 接 决 定 了 测试 数据 对 应 的 训练 集 ， 从 而 最 终 影响 到 
预测 结果 。 当 a\c 确定 时 , 表 6~9 反映 了 当 聚 类 艇 数 不 同 时 ， 
本 文 算法 在 四 个 数据 集 上 的 性 能 。 
表 6 数据 集 enron 上 不 同 聚 类 簇 数 的 影响 
Table6 Effect of different Pt on enron 


7 


=2, {t=2 {=3,， {=2 I=3，t{=3 

hloss 0.046087 0.052775 0.055204 

rloss 0.058146 0.10065 0.058409 
one-error 0.15337 0.29707 0.27053 
coverage 9.8032 12.7693 9.9893 
avgprec 0.75137 0.6572 0.71208 
Time(s) 19.1834 17.421 17.2456 
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表 7 数据 集 scene 上 不 同 聚 类 簇 数 的 影响 
Table7 Effect of different Pt on Scene 


I 一 2， 人 二 =2 II 天 3， 人 3 I4， 全 3 

hloss 0.069413 0.072451 0.11154 

rloss 0.065248 0.069544 0.096498 

one-error 0.18011 0.19142 0.31161 
coverage 0.39939 0.43201 0.56425 
avgprec 0.89178 0.88367 0.82217 
Time(s) 6.0315 4.4674 4.0325 


表 8 数据 集 Yeast 上 不 同 聚 类 复数 的 影响 
Table8 Effect of different r,t on Yeast 


I2， 全 2 I3， 人 二 2 I3， 人 二 3 

hloss 0.20412 0.21709 0.21794 

rloss 0.17922 0.19141 0.18643 

one-error 0.20681 0.26982 0.25124 
coverage 6.5013 6.6214 6.6703 
avgprec 0.75848 0.7398 0.74164 
Time(s) 4.1438 2.2736 2.926 


表 9 数据 集 delicious 上 不 同 聚 类 复数 的 影响 
Table9 Effect of different t,t on delicious 


{=11, {t=4 {=13, t=3 {=14, t=4 

hloss 0.014148 0.015778 0.013979 
rloss 0.10453 0.13485 0.10342 
one-error 0.28109 0.32058 0.31589 
coverage 378.5584 451.5746 373.349 
avgprec 0.49485 0.41648 0.47827 
Time(s) 416.7709 419.4521 422.1061 


表 6~9 可 知 ,在 数据 集 enron、scene、Yeast 上 , 1=2， 
t=2 时 算法 效果 最 好 ;在 数据 集 delicious 上 ， 当 r=11,， t=4 
时 算法 效果 最 好 。 与 此 同时 ，r、t 的 取 值 需要 适当 ， 若 r 太 
小 ， 则 起 不 到 降低 时 间 复 杂 度 的 效果 ， 但 当 r 太 大 时 ， 昌 然 
时 间 可 能 会 减少 ， 但 是 也 可 能 会 大 幅 降 低 算法 的 精度 ; 对 于 
t 来 说 , 它 决定 了 算法 的 循环 次 数 , 即 决 定 了 算法 的 计算 量 ， 
所 以 t 的 取 值 不 宜 太 大 。 图 1~6 直观 地 体现 了 本 文 算法 的 优 
越 性 。 其 中 coverage 和 时 间 会 因为 数量 规模 的 不 同 而 出 现 较 
大 的 差异 ， 所 以 本 文 在 这 两 者 的 比较 上 利用 百分比 的 方式 。 
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Fig.1 Hloss comparison of three algorithms 
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图 2 三 种 算法 的 rloss 对 比 


Fig.2 Rloss comparison of three algorithms 
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图 3 三 种 算法 的 one-error 对 比 
Fig.3 One-error comparison of three algorithms 
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图 4 三 种 算法 的 coverage 对 比 
Fig. 4 Coverage comparison of three algorithms 
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图 5 三 种 算法 的 avgprec 对 比 


Fig.5 Avgprec comparison of three algorithms 
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图 6 三 种 算法 的 时 间 对 比 


Fig.6 Time comparison of three algorithms 
结束 语 


针对 传统 的 ML-KNN 算法 高 时 间 复 杂 度 的 问题 ,本文 先 


将 训练 数据 和 测试 聚 类 以 降低 数据 的 规模 ， 从 而 减少 算法 的 
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计算 量 ， 最 终 达 到 降低 时 间 复 杂 度 的 目的 ， 同 时 本 文 还 考虑 
了 K 个 近邻 会 因为 距离 的 不 同 而 对 预测 结果 产生 不 同 的 影响 ， 
并 将 这 种 影响 利用 最 近邻 距离 权重 衡量 。 结 合 聚 类 和 最 近邻 
距离 权重 , 本 文 提 出 了 一 种 改进 的 ML-KNN 算法 。 实 验 结果 
也 表明 本 文 算法 会 取得 更 好 的 分 类 效果 ， 并 且 在 多 标签 评价 
指标 上 也 优 于 原始 算法 。 
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